需要探索的问题

哪个化学成分影响白葡萄酒的质量?

其中,白葡萄酒质量用quality变量表示,⾄少 3 名葡萄酒专家对每种酒的质量进⾏了评分, 分数在 0(⾮常差)和10(⾮常好)之间。分数越高,代表就的质量越好。

设置knit的文件可读性

探索单个变量

查看数据整体情况

## [1] 4898
## [1] 13
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  1      :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  2      :   1   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  3      :   1   Median : 6.800   Median :0.2600   Median :0.3200  
##  4      :   1   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  5      :   1   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  6      :   1   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  (Other):4892                                                     
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##                                                        
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##                                                                        
##     alcohol      quality 
##  Min.   : 8.00   3:  20  
##  1st Qu.: 9.50   4: 163  
##  Median :10.40   5:1457  
##  Mean   :10.51   6:2198  
##  3rd Qu.:11.40   7: 880  
##  Max.   :14.20   8: 175  
##                  9:   5

读取相关数据,可知, 1. 该白葡萄酒数据集有13个变量,4898 条数据;
2. 该白葡萄酒数据集质量范围在3~9分之间。

用直方图来查看 quality 的分布如下:

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

从图中可以看出,本数据集的质量范围在 3~9 之间,其中质量为5,6的数量最多。
从每种质量分布的个数来看,基本属于正态分布,虽然并不标准。其中峰值为 quality=6.

下面,使用aes_string和ggplot搭配构造直方图函数,减少代码的重复

大部分 fixed.acidity 的含量在 5~9之间,其中峰值在 6~7 之间, fixed.acidity 的分布基本属于正态分布,存在一些异常值。
去掉 fixed.acidity 大于10的部分,可以看到, fixed.acidity 的分布基本呈现正态分布。

volatile.acidity 的分布呈现右偏斜分布,其中大部分 volatile.acidity 的含量在 0.15~0.4 之间。
citric.acid 呈现正态分布,峰值为0.3,分布在0.5附近出现变化。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800

residual.sugar 是正偏斜分布,由于大部分的 residual.sugar 在0~20之间。
将 residual.sugar 取log10,可以得到一个双峰分布,如上图所示。

绝大部分的 free.sulfur.dioxide 的值分布在0~100之间, 绝大部分的 total.sulfur.dioxide 值分布在 50~250 之间。
去掉 free.sulfur.dioxide 和 total.sulfur.dioxide 中的比较高的异常值。

从上图可以看出,free.sulfur.dioxide 和 total.sulfur.dioxide的分布都很均匀。

sulphates的分布比较均匀,但chlorides的分布大部分在0.0~0.1之间,去掉chlorides中异常值,如下:

去掉以后,chlorides大致呈现正态分布。

pH的分布大致呈现正态分布。
density分布大部分在0.997~1.002的范围内
alcohol呈现偏右斜分布。

查看alcohol的统计数据如下:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

新变量acid

由于变量中包含3中酸,fixed.acidity,volatile.acidity,citric.acid, 现在新建一个变量
acid = fixed.acidity + volatile.acidity + citric.acid,查看acid的分布。

单变量分析

数据集的结构是什么?

本数据集包含4898种白葡萄酒,以及11个关于酒的化学成分的变量。
这11个变量分别是:fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides,sulphates, 单位为(g / dm^3);
free.sulfur.dioxide, total.sulfur.dioxide,单位为(mg / dm^3), alcohol 单位为(% by volume) density 单位为(mg / cm^3), pH
这11个变量均为连续变量
变量quality表示白葡萄酒的质量,由至少3名葡萄酒专家对每种酒的质量进行评分,分数在0(非常差)和10(非常好)之间。

数据集的主要特征是什么?

数据集的主要特征应该是酒精度数 alcohol 和 quality。

数据集中哪些特征对于你的研究目的可能有帮助?

pH、residual.sugar、total.sulfur.dioxide以及其他特征对我的研究可能有用。还需要后续具体查看。

你是否根据现有变量创建了新的变量?

目前,根据3种酸,计算了新变量 acid,表示3种酸的总和。

你研究的变量是否有不寻常的分布? 你是否对数据进行了整理、调整或者更改数据的形式?如果有的话,描述一下你为什么要这样操作?

新变量 acid 没有不寻常的分布,由于 fixed.acidity 的值比 volatile.acidity 和 citric.acid 大很多,将三者相加以后,主要是由 fixed.acidity 的值起作用,故而 acid 的分布整体与 fixed.acidity 的分布一致。

探索2个变量

##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"

从上述相关表中可以看出,
residual.sugar 与 density 相关度最高:0.84;
free.sulfur.dioxide 和 total.sulfur.dioxide 相关度为:0.62 total.sulfur.dioxide 和 density 的相关度为:0.53

存在较高的负相关度的变量为: alcohol 与 density : -0.78
alcohol 与 total.sulfur.dioxide: -0.45 alcohol 与 residual.sugar: -0.45
fixed.acidity 与 pH:-0.43

由于 quality 是分类变量,所以 quality 与其他变量的关系用箱线图来表示。 在双变量分析的箱线图中加入 jitter,能够更丰富的传递信息

探索 alcohol 与 quality 的关系

从图中可以看出, quality 与 alcohol 的变化趋势为, 随着quality的增加,alcohol的度数增加,即两者呈现正相关关系。 在箱线图中加入jitter,能传递更加丰富的信息,加入线性回归线,可以减少被极端值影响的情况,更好的反映数据之间的趋势。

探索 pH 与 quality的关系

从上图可以看出,quality 与 pH 的关系并不明显,呈现非常微弱的正相关关系。

探索 citric.acid 与 quality的关系

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600

从上图可以看出,quality 和 citric.acid 的回归线几乎在一条水平线上,说明 citric.acid 与 quality 无相关关系 。

探索 residual.sugar 和 density 的关系

从图中可以看出,residual.sugar 和 density 呈正相关关系

探索 total.sulfur.dioxide 和 density 的关系

从图中可以看出,total.sulfur.dioxide 和 density 呈现正相关关系。

探索 alcohol 和 density 的关系

从上图可以看出,alcohol 与 density 之间,呈现明显的负相关关系

探索 alcohol 和 total.sulfur.dioxide 的关系

从图中可以看出,当 total.sulfur.dioxide 增加时,alcohol 整体呈现下降趋势,即两者呈现负相关关系。

探索 fixed.acidity 和 pH 的关系

从图中可以看出,fixed.acidity 的值越高,pH的值越低,即两者呈现负相关关系。

双变量分析

谈论一下你在这部分观察到的变量之间的关系。在数据集中,我们关注的变量是如何变化的?

在这部分中,主要探讨了 quality 和 alcohol 之间的关系。
从观察中可以看出,随着quality 的增加, alcohol的值先减少,再增加,在quality=5时,alcohol 达到最低平均值。

还探讨了 pH 与 quality 的关系,关系与上面 quality 与 alcohol 之间的关系很相似。
也是随着quality 的增加, pH 的值先减少,再增加,在quality=5时,pH 达到最低平均值。

除了主要特征之外,你观察到其他特性之间的关系了吗?

residual.sugar 和 density 的关系:两者呈现正相关关系,随着 residual.sugar 增加,density 的值也增加;
total.sulfur.dioxide 和 density 的关系:两者也呈现正相关关系,随着 total.sulfur.dioxide 增加,density 呈现增加趋势;
alcohol 和 density 的关系:两者呈现负相关关系,随着 alcohol 增加,density 呈下降趋势;
alcohol 和 total.sulfur.dioxide 的关系:两者呈现负相关关系;
fixed.acidity 和 pH 的关系 :两者呈现负相关关系,随着 fixed.acidity增加,pH呈现下降趋势。

你发现的最强的关系是什么?

其中,最强的关系是residual.sugar 和 density的关系,从图中可以看出,两者正相关关系很明显,且相关系数为 0.84 .

进行多变量研究

探索 alcohol、density 和 quality之间的关系

从图中可以看出,当alcohol一定时,density越高,quality的颜色越深,也就是说质量更高,但quality=3 和 quality = 9 这两条线并不遵循这个规律,但由于quality = 3和9 的数据相对于其他等级来说,太少了,远小于30个数据,这里有可能会出现误差。在总结规律时,暂时先不考虑这两个质量的影响。
故,从整体上来说,当alcohol一定时,density越高,quality的质量更高。

探索 alcohol, quality, pH 的关系

从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。

探索 alcohol, quality, residual.sugar 的关系

从上图中可以看出,当alcohol 一定时,residual.sugar 值越大,整体上 quality的值也越大,不过在 quality=3和9 时,并不遵循此规律。由于quality=3和9的数据量太小,远小于其他值,存在误差的可能性很大,我们可以暂时不考率quality=3和9的情况。 再观察图形,可以看出,从整体来说,当alcohol 一定时,residual.sugar 值越大,quality的值也越大。

探索 alcohol, quality, total.sulfur.dioxide 的关系

当 alcohol 保持一致时, total.sulfur.dioxide 与 quality 关系并不明确,故 total.sulfur.dioxide 与 alcohol 并不是相互加强的关系。

多变量分析

需要注意

由于quality为分布变量,如果出现一个连续变量(alcohol,sulphate等等)VS 连续变量 VS 分类变量(quality)的情况,所以我们散点图的x,y值应该为这两个连续变量,然后颜色元素应该代表分类变量quality。否则的话如这次提交中的图形将quality选为x值的话图形中的点是重叠无法看清里面的分布的。

谈论一下你在这部分观察到的特性之间的关系。你探索数据时,有发现相互之间会加强的数据吗?

探索过程中发现,pH、residual.sugar、density 和 alcohol 是相互加强的关系。由于quality = 3 和 9 的数据量太少了,在 quality = 3 和 9 的趋势上,可能存在误差。

有哪些有趣的关系?

暂无。

可选:你是否创建任何数据模型?讨论你的数据模型的优缺点.

暂无。


最后的图形以及说明

图形1

图形1描述

从图中可以看出,quality分布大致呈现正态分布。其中峰值在quality=6这里。这说明了大部分酒的品质差别都不大,特别好的酒和特别差的酒都是少数。

图形2

图形2描述

从图中可以看出, quality 与 alcohol 呈现正相关关系,当 Quality 增加时, alcohol 也呈现上升趋势。

图形3

图形3描述

从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。
——

反思

分析过程中的成功

  1. 在进行双变量探索的过程中,使用GGally库中的ggcorr方法和ggpairs方法,一次性对所有变量做了一个大致性的分析,找到了相关度高的一些变量关系,为后续的分析提供了指导作用;
  2. 在进行箱线图分析时,使用了jitter丰富信息,并使用线性回归,找到了 quality 与 alcohol 和 pH 之间的正相关关系,验证了最开始的想法;
    3、在多变量分析的过程中,使用分组以及线性回归的方式,找到了 alcohol 与 pH 对 quality 相互叠加的正相关关系,从而可以知道,alcohol 和 pH 确实与quality 呈现正相关关系,且 alcohol 和 pH 可以相互加强。

遇到的问题

  1. 由于 quality = 0,1,2,10 的数据缺少,且 quality = 3,9 的数据量太少,导致评估各种化学物质对质量的影响时,可能存在较大误差。可以有效进行评估的为 quality = 4,5,6,7,8 ;
  2. 分析的过程中,发现各种化学物质与 quality 的关系并不是特别明显或明确。
    猜想这里是由于 quality 的评估标准很多样,并不是单一看化学物质的含量,还需要考虑很多其他的特征,例如产地、葡萄酒的颜色、盛放器材等,故只考察化学物质的含量,并不能得到一个特别明确的关系,只能得到一个大致的趋势;
  3. 在R的各种方法使用过程中,并不是特别熟悉,故而有时候并不能很快找到最适合的表现方式,这部分需要再多熟悉。

对未来工作的提议

  1. 建议收集更多的葡萄酒样本,最好能包含各个 quality 等级的数据,以便对各个等级皆有所了解,更全面的找到一些关系;
  2. 建议收集更多的参数,例如酒的颜色、粘稠度、盛放器材、产地以及其他与质量评定相关的参数;
  3. 后续可以通过机器学习来预测葡萄酒的质量。